„Robotul” care s-ar putea dovedi cel mai bun traducător pentru limbi antice

de: Ozana Mazilu
23 10. 2020

O echipă de cercetători de la Laboratorul de Informatică și Inteligență Artificială (CSAIL) al MIT au creat un algoritm AI capabil să descifreze automat limbile pierdute de mult, chiar și fără alte cunoștințe avansate despre relația cu alte limbi.

Limbile pierdute sunt mai mult decât o simplă curiozitate academică. Fără ele, ne lipsește un întreg corp de cunoștințe despre oamenii care le-au vorbit. Din păcate, majoritatea au înregistrări atât de minime, încât oamenii de știință nu le pot descifra folosind algoritmi de traducere automată precum Google Translate. Unele nu au un limbaj „relativ” bine cercetat cu care să fie comparat și de multe ori nu au separatoare tradiționale, cum ar fi spațiul alb și punctuația.

Scopul este de a descoperi relațiile dintre limbile „pierdute”, pentru care istoricii au găsit înregistrări scrise, dar pe care nimeni nu le-a vorbit de multă vreme.

Cercetătorii au învățat un „algoritm de descifrare” diferite constrângeri lingvistice care apar pe măsură ce limbile evoluează în moduri previzibile. Apoi, algoritmul AI a descoperit modele de limbaj folosind aceste constrângeri.

„De exemplu, putem identifica toate referințele la persoane sau locații din document, care pot fi ulterior cercetate în lumina dovezilor istorice cunoscute”, spune cercetătorul Barzilay. „Aceste metode de recunoaștere a entităților sunt utilizate în mod obișnuit în diverse aplicații de procesare a textelor de astăzi și sunt extrem de precise, dar întrebarea cheie de cercetare este dacă sarcina este fezabilă fără date de instruire în limba antică”.

Prin urmare, algoritmul poate clasifica cuvintele într-o limbă veche și le poate lega de echivalentele din alte limbi conexe. Cu alte cuvinte, deși nu este capabil să acționeze ca un Google Translate pentru a descifra textele antice în engleză, poate identifica rădăcinile limbilor străvechi.

De exemplu, algoritmul a reușit să identifice cu precizie familia de limbi a ibericului, o limbă veche vorbită de indigeni din vestul Europei din secolul al VII-lea până în primul secol î.Hr. Spre exemplu, potrivit AI, iberica nu era de fapt legată de bască, după cum confirmă cercetările recente.

Echipa speră să își folosească în cele din urmă AI pentru a descifra limbile pierdute de mult folosind doar câteva mii de cuvinte.